Estimation du paramètre de collection des modèles d'information pour la RI
نویسندگان
چکیده
RÉSUMÉ. Nous explorons dans cet article plusieurs méthodes permettant, a priori, d’estimer le paramètre de collection des modèles d’information. Jusqu’à présent, ce paramètre a était fixé au nombre moyen de documents dans lesquels un mot donné apparaissait. Nous présentons ici plusieurs méthodes d’estimation de ce paramètre et montrons qu’il est possible d’améliorer les performances du système de recherche d’information lorsque ce paramètre est estimé de façon adéquate.
منابع مشابه
Texte et Représentation en Recherche d'Information
Les performances des modèles de Recherche d'Information (RI) sont for-tement liées à leur capacité à représenter le texte. Ces dernières années, portés par les succès en reconnaissance d'image et de parole, de nombreux modèles basés sur les réseaux de neurones et les représentations distri-buées des mots et phrases sont apparus. Quelques modèles ont essayé d'aborder le problème de la RI, dont u...
متن کاملUn graphe génératif pour la classification semi-supervisée
RÉSUMÉ. Nous proposons un nouvel algorithme semi-supervisé qui combine un modèle de mélange gaussien pour modéliser localement les données, et un graphe génératif construit sur les composants du mélange pour capturer la structure globale des données. La combinaison est réalisée via un processus de propagation d’étiquettes au travers du graphe. Contrairement aux algorithmes de l’état de l’art, l...
متن کاملRôle de la matrice d'information et pondération des composantes dans les noyaux de Fisher pour PLSI
RÉSUMÉ. Des similarités entre documents à base de catégories sémantiques latentes et de noyaux de Fisher ont été proposées pour la première fois il y a dix ans par T. Hofmann dans le contexte du “Probabilistic Latent Semantic Indexing”, puis étendues par Nyffenegger et al. (2006). Le présent article présente une étude approfondie et une révision de ces modèles par (1) une description unifiée et...
متن کاملUne méthode de classification supervisée sans paramètre pour l'apprentissage sur les grandes bases de données
Résumé. Dans ce papier, nous présentons une méthode de classification supervisée sans paramètre permettant d’attaquer les grandes volumétries. La méthode est basée sur des estimateurs de densités univariés optimaux au sens de Bayes, sur un classifieur Bayesien naïf amélioré par une sélection de variables et un moyennage de modèles exploitant un lissage logarithmique de la distribution a posteri...
متن کاملUne tentative d'utilisation conjointe d'UML et d'une méthode formelle pour la modélisation de la sécurité des aéroports
RÉSUMÉ. Le projet EDEMOI 1 a pour but la modélisation de la sécurité des aéroports. Son approche passe par la production de modèles graphiques (un ensemble de diagrammes UML) destinés à être validés par les experts du domaine, et de modèles formels destinés à être vérifiés. Pour assurer la correspondance entre ce qui est validé et ce qui est vérifié, il faut établir un lien fort entre ces deux ...
متن کامل